2.9.1 Restrukturere fra tverrsnittsdata til paneldata
Til statistikk og analyser i microdata.no brukes vanligvis datasett
opprettet gjennom kommandoen import
. Dette er datasett av typen "wide", hvor opplysninger om alle enheter i en populasjon struktureres horisontalt på variabelnivå. Kommandoen reshape-to-panel
gjør det mulig å endre datastrukturen til long-format (panel-format), hvor opplysninger om hver enhet struktureres vertikalt på observasjons-/record-nivå.
Variabler som måles over flere tidspunkt og som man ønsker på
long-/panel-format, må navngis gjennom reshape-to-panel
med angitte
prefiks som består av bokstavene (prefikset) fra den opprinnelige
variabelen i wide-datasettet. Øvrige variabler som det ikke angis
prefiks for, typisk opplysninger som bare måles én gang (kjønn, fødeland
etc), defineres automatisk som faste opplysninger og verdiene for disse
repeteres for alle undernivåer for hver enhet.
Suffiksene til de opprinnelige "wide"-variablene med repeterende målinger må bestå av heltall. Disse vil danne undernivået til long- / panel-datasettet. Typiske eksempler på suffikser vil være to- eller firesifrede år, eller andre typer tidsangivelser som også peker på måned eller kvartal, f.eks. 201901, 201902 osv. Du står fritt til å velge andre typer suffikser så lenge det består av sifre1. Suffikser av type 1, 2, 3, 4 osv. er også tillatt.
Illustrasjonen nedenfor viser hvordan restruktureringen logisk foregår
under panseret. Eksempelet viser et datasett med wide-format som
inneholder variablene sivstand18-sivstand20, lønn18-lønn20, og kjønn.
Sivilstand (sivstand) og lønn måles altså for årene 2018-2020, mens
kjønn er en fast opplysning som bare måles en gang. Datasettet
konverteres til long-format ved hjelp av kommandoen reshape-to-panel sivstand lønn
. Variabelen date@panel opprettes automatisk og inneholder undernivået som i dette tilfellet er tosifret årstall.
Kommandoen reshape-to-panel
har flere bruksområder:
-
Et mer fleksibelt alternativ til
import-panel
som også lager paneldatasett, men som har en del begrensninger. Blant annet må alle variabler her ha gyldige måletidspunkter for alle måletidspunkter, noe som kan være utfordrende dersom tverrsnittsvariabler inngår i datasettet (variabler som bare har verdier på gitte årlige, kvartalsmessige eller månedlige datoer). Kommandoenreshape-to-panel
tillater alle kombinasjoner av variabler. -
En del analyser krever long-format, og støtten for dette blir nå forbedret. I tillegg har man tilgang til all fleksibilitet og funksjonalitet knyttet til wide-datasett, og kan gjøre hele tilretteleggingen i dette formatet før man enkelt restrukturerer til long-format etterpå. Dette er nyttig om man har behov for å sammenlikne og gjøre operasjoner over variabelverdier på tvers av undernivå (over tid), f.eks. sammenlikne verdien på lønn i 2020 i forhold til 2019.
Eksempel: Restrukturere datasett fra wide- til long-format
Footnotes
-
Også tegnet "_" er tillatt, f.eks. "sivstand2019_01_01". Men etter at reshape-operasjonen er fullført, vil tegnet bli fjernet fra undernivåene. F.eks. ved bruk av suffikset "2019_01_01" vil tilhørende undernivå bli endret til "20190101" i det transformerte datasettet. ↩